Il modello MolmoAct di Ai2 "pensa in 3D" per sfidare Nvidia e Google nell'intelligenza artificiale robotica

Vuoi ricevere informazioni più intelligenti nella tua casella di posta? Iscriviti alle nostre newsletter settimanali per ricevere solo ciò che conta per i leader aziendali in materia di intelligenza artificiale, dati e sicurezza. Iscriviti ora
L'intelligenza artificiale fisica, in cui la robotica e i modelli di base si fondono, sta rapidamente diventando un settore in crescita, con aziende come Nvidia , Google e Meta che pubblicano ricerche e sperimentazioni sulla fusione di modelli linguistici di grandi dimensioni (LLM) con i robot.
Una nuova ricerca dell'Allen Institute for AI (Ai2) mira a sfidare Nvidia e Google nell'intelligenza artificiale fisica con il rilascio di MolmoAct 7B, un nuovo modello open source che consente ai robot di "ragionare nello spazio". MolmoAct, basato sul Molmo open source di Ai2, "pensa" in tre dimensioni. L'azienda sta anche rilasciando i suoi dati di addestramento. Ai2 ha una licenza Apache 2.0 per il modello, mentre i set di dati sono concessi in licenza CC BY-4.0.
Ai2 classifica MolmoAct come un modello di ragionamento d'azione, in cui i modelli di base ragionano sulle azioni all'interno di uno spazio fisico tridimensionale.
Ciò significa che MolmoAct può utilizzare le sue capacità di ragionamento per comprendere il mondo fisico, pianificare come occupare lo spazio e quindi intraprendere quell'azione.
La scalabilità dell'intelligenza artificiale raggiunge i suoi limiti
Limiti di potenza, aumento dei costi dei token e ritardi nelle inferenze stanno rimodellando l'intelligenza artificiale aziendale. Partecipa al nostro esclusivo salone per scoprire come i migliori team stanno:
- Trasformare l'energia in un vantaggio strategico
- Progettazione di inferenze efficienti per reali guadagni di produttività
- Sbloccare il ROI competitivo con sistemi di intelligenza artificiale sostenibili
Assicurati il tuo posto per rimanere in vantaggio : https://bit.ly/4mwGngO
"MolmoAct ha capacità di ragionamento nello spazio 3D, a differenza dei tradizionali modelli di visione-linguaggio-azione (VLA)", ha dichiarato Ai2 a VentureBeat in un'e-mail. "La maggior parte dei modelli robotici sono VLA che non pensano o ragionano nello spazio, ma MolmoAct ha questa capacità, rendendolo più performante e generalizzabile dal punto di vista architettonico".
Poiché i robot esistono nel mondo fisico, Ai2 sostiene che MolmoAct aiuta i robot a comprendere l'ambiente circostante e a prendere decisioni migliori su come interagire con esso.
"MolmoAct potrebbe essere applicato ovunque una macchina debba interagire con l'ambiente fisico circostante", ha affermato l'azienda. "Lo consideriamo principalmente in un contesto domestico perché è lì che risiede la sfida più grande per la robotica, perché lì le cose sono irregolari e in continuo cambiamento, ma MolmoAct può essere applicato ovunque".
MolmoAct è in grado di comprendere il mondo fisico generando "token di percezione spazialmente fondati", ovvero token pre-addestrati ed estratti utilizzando un autoencoder variazionale a quantizzazione vettoriale o un modello che converte input di dati, come video, in token. L'azienda ha affermato che questi token differiscono da quelli utilizzati dai VLA in quanto non sono input di testo.
Questi consentono a MolmoAct di acquisire una comprensione spaziale e di codificare strutture geometriche. Grazie a queste, il modello stima la distanza tra gli oggetti.
Una volta stimata la distanza, MolmoAct prevede una sequenza di waypoint nello "spazio immagine" o punti nell'area verso cui impostare un percorso. Dopodiché, il modello inizierà a generare azioni specifiche, come abbassare un braccio di qualche centimetro o allungarlo.
I ricercatori di Ai2 hanno affermato di essere riusciti a far sì che il modello si adattasse a diverse forme di realizzazione (ad esempio, un braccio meccanico o un robot umanoide) "con solo una messa a punto minima".
I test di benchmarking condotti da Ai2 hanno dimostrato che MolmoAct 7B ha avuto un tasso di successo delle attività del 72,1%, superando i modelli di Google, Microsoft e Nvidia.
La ricerca di Ai2 è l'ultima a sfruttare i vantaggi esclusivi di LLM e VLM, soprattutto in un contesto in cui il ritmo dell'innovazione nell'intelligenza artificiale generativa continua a crescere. Gli esperti del settore considerano il lavoro di Ai2 e di altre aziende tecnologiche come elementi costitutivi.
Alan Fern, professore presso la Facoltà di Ingegneria dell'Oregon State University , ha dichiarato a VentureBeat che la ricerca di Ai2 "rappresenta una naturale evoluzione nel miglioramento dei VLM per la robotica e il ragionamento fisico".
"Sebbene non lo definirei rivoluzionario, rappresenta un importante passo avanti nello sviluppo di modelli di ragionamento fisico 3D più efficienti", ha affermato Fern. "La loro attenzione alla comprensione di scene realmente 3D, anziché basarsi su modelli 2D, segna un notevole cambiamento nella giusta direzione. Hanno apportato miglioramenti rispetto ai modelli precedenti, ma questi benchmark non riescono ancora a catturare la complessità del mondo reale e rimangono relativamente controllati e di natura ludica".
Ha aggiunto che, sebbene ci sia ancora margine di miglioramento nei parametri di riferimento, è "ansioso di testare questo nuovo modello su alcuni dei nostri compiti di ragionamento fisico".
Daniel Maturana, co-fondatore della start-up Gather AI , ha elogiato l'apertura dei dati, sottolineando che "questa è un'ottima notizia perché sviluppare e addestrare questi modelli è costoso, quindi si tratta di una solida base su cui costruire e perfezionare per altri laboratori accademici e persino per appassionati dedicati".
Creare robot più intelligenti o almeno più consapevoli dello spazio è un sogno che molti sviluppatori e informatici coltivano da tempo.
Tuttavia, costruire robot che elaborino rapidamente ciò che possono "vedere" e che si muovano e reagiscano in modo fluido diventa difficile. Prima dell'avvento dei LLM, gli scienziati dovevano codificare ogni singolo movimento. Ciò comportava naturalmente molto lavoro e una minore flessibilità nei tipi di azioni robotiche che possono essere eseguite. Ora, i metodi basati sui LLM consentono ai robot (o almeno ai bracci robotici) di determinare le seguenti possibili azioni da intraprendere in base agli oggetti con cui interagiscono.
SayCan di Google Research aiuta un robot a ragionare sui compiti utilizzando un LLM, consentendogli di determinare la sequenza di movimenti necessaria per raggiungere un obiettivo. OK-Robot di Meta e della New York University utilizza modelli di linguaggio visivo per la pianificazione dei movimenti e la manipolazione degli oggetti.
Hugging Face ha lanciato un robot desktop da 299 dollari nel tentativo di democratizzare lo sviluppo della robotica. Nvidia, che ha proclamato l'intelligenza artificiale fisica come la prossima grande tendenza , ha rilasciato diversi modelli per accelerare l'addestramento dei robot, tra cui Cosmos-Transfer1 .
Fern dell'OSU ha affermato che l'interesse per l'intelligenza artificiale fisica è in crescita, sebbene le dimostrazioni siano ancora limitate. Tuttavia, la ricerca di un'intelligenza fisica generale, che elimini la necessità di programmare individualmente le azioni dei robot, sta diventando più semplice.
"Il panorama attuale è più impegnativo, con meno obiettivi a portata di mano. D'altra parte, i grandi modelli di intelligenza fisica sono ancora in fase iniziale e molto più maturi per rapidi progressi, il che rende questo settore particolarmente interessante", ha affermato.
Se vuoi fare colpo sul tuo capo, VB Daily ha la soluzione che fa per te. Ti forniamo informazioni privilegiate su ciò che le aziende stanno facendo con l'intelligenza artificiale generativa, dai cambiamenti normativi alle implementazioni pratiche, così puoi condividere approfondimenti per massimizzare il ROI.
Leggi la nostra Informativa sulla privacy
Grazie per esserti iscritto. Scopri altre newsletter di VB qui .
Si è verificato un errore.

venturebeat